Optimización Pass@K: resuelve problemas complejos de RL
Optimiza problemas complejos de RL con PKPO. Aprende cómo esta técnica mejora pass@k y pass@1, impulsando la exploración y el rendimiento colectivo.
Optimiza problemas complejos de RL con PKPO. Aprende cómo esta técnica mejora pass@k y pass@1, impulsando la exploración y el rendimiento colectivo.
Aprende cómo PKPO transforma la recompensa para optimizar conjuntos de muestras, resolviendo problemas de RL más difíciles con mejor exploración.